tg-me.com/ds_interview_lib/770
Last Update:
Какие метрики для оценки схожести текстов вам известны?
Метрики близости текстов можно условно разделить на два типа: лексические и семантические.
🔹 Лексические
— Сходство Жаккара (Jaccard similarity)
Это простая метрика, которая вычисляется следующим образом: берутся две последовательности A и B, определяются общие элементы, и их количество делится на общее количество элементов в обеих последовательностях.
🔹 Семантические
— Косинусное сходство (cosine similarity)
Эта метрика измеряет косинус угла между двумя векторами, которые представляют тексты в векторном пространстве (часто используется векторизация TF-IDF).
— Евклидово расстояние (euclidean distance)
Измеряет кратчайшее расстояние между двумя точками в евклидовой геометрии. Для этого также требуется предварительная векторизация текстов.
BY Библиотека собеса по Data Science | вопросы с собеседований
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
Share with your friend now:
tg-me.com/ds_interview_lib/770